자연어학처리2(형태소분석-morphemeidentification) | ◈자연어학◈ :: 개발참고자료[SSISO Community]
 
SSISO 카페 SSISO Source SSISO 구직 SSISO 쇼핑몰 SSISO 맛집
추천검색어 : JUnit   Log4j   ajax   spring   struts   struts-config.xml   Synchronized   책정보   Ajax 마스터하기   우측부분

개발참고자료
[1]
등록일:2008-04-07 11:47:39 (0%)
작성자:
제목: 자연어학처리2(형태소분석-morphemeidentification) | ◈자연어학◈

형태소분석의 관점에서 자연언어의 특성을 기술하면 다음과 같다

1. 형태소 분석의 처리 대상은 단어 또는 어절이다

2.단어는 하나 혹은 둘 이상의 형태소로 이루어진다

3.형태소는 형태론적 변형규칙에 따라 변형이 일어날수 있다

4. 형태소 분석 결과는 어휘 사전과 단어간의 결합관계에 따른 제약을 받는다

5.형태론적 모호성이 있는 단어가 존재한다

이와 같은 잔연어의 특성에 따라 형태소분석 과정을 기술하면 (1)단어를 이루고 있는 형태소를 분리한 후에 (2)형태론적 변형이 일어난 형태소의 원형을 복원하고 (3)사전과 단어들 사이에 결합제약 조건에 따라 옳은 분석후보를 선택하는 과정으로 이루어진다.

형태소 분석에서 분석의 대상은 단어이고 단어에 대한 형태소 분석의 결과는 단어를 이루고 있는 형태소들의 원형과 그 형태소의 품사 혹은 문법적 관계적인 의미를 나타내는 기호이다.

일반적인 형태소 분석:

                                              어절 

                                               ↓

                                           전처리 

                                               ↓

                                        분석후보 생성(candidate generation)       ←     원형복원 규칙

                                       결합제약 검사                                        ←     결합제약 규칙

                                       분석후보 선택(candidete selection)          ←      시스템 사전

                                               ↓

                                            후처리

                                               ↓

                                           분석결과

 전처리(preprocessing):이 단계에서는 문서(tex)부터 형태소 분석의 대상이 되는 단어를 추출하고,문장 부호를 분리하며, 숫자나 특수 문자열을 처리한다. 일반적으로 형태소 분석의 대상이 되는것은 띄어쓰기 단위로 된 문자열(character string)이지만 중국어 처럼 띄여쓰기가 없는 언어는 문장(sentence)을 입력 단위로 하여 전처리에서 분리하는 과정이 필요한 언어도 있다.

 후보생성과정:이 과정에서는 분석 결과에 비해 매우 많은 후보들을 생성하기에 다음 단계에서 적용할 결합제약 규칙을 미리 적용함으로써 선택의 폭을 줄이고 분석의 효율성과 정확성을 높일수 있다.

분석 후보선택(candidete selection):후보 형태소들에 대한 어휘사전의 검색과 단어형성규칙(word formation rule),결합제약조건등에 의해 최정적으로 옳은 후보를 선택하는 과정이다.

후처리(postprocessing)단 계에서는 복합 명사나 사전 미등록어, 준말등과 같이 언어 종속적이거나 특이한 언어 현상들을 처리한다.그런데 형태소 분석은 단어 자체만을 분석하기 때문에 형태론적 중의성 (품사 중의성이나 어휘 중의성)을 내포하고 있는 단어에 대해서는 두가지 이상의 분석결과를 제시하므로 형태소 수준의 중의성을 해결하는 일도 후처리단계에서 해야한다.



출처 : http://blog.daum.net/autumn78/8068135

[본문링크] 자연어학처리2(형태소분석-morphemeidentification) | ◈자연어학◈
[1]
코멘트(이글의 트랙백 주소:/cafe/tb_receive.php?no=7310
작성자
비밀번호

 

SSISOCommunity

[이전]

Copyright byCopyright ⓒ2005, SSISO Community All Rights Reserved.